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基于 标准 置换 检验 的 差异 序列 模式 挖掘 算法 
XO, BKREH XE. UK OX 
(遵义 师范 学 院 信息 工程 学 院 , 贵州 遵义 563000) 


摘 要 : 为 了 去 除 差 异 序 列 模式 挖掘 算法 返回 结果 中 的 假 阳 性 差异 序列 模式 ， 提 出 了 一 个 基于 标准 置换 假设 检验 的 
算法 SP-DSP。 该 算法 首先 运用 GSP 算法 挖掘 频繁 序列 模式 ， 然 后 基于 Growth rate 国 值 生成 差异 序列 模式 候选 集 ， 
并 运用 标准 置换 检验 计算 候选 集合 中 每 个 模式 的 p-value， 最 后 运用 多 重 假设 检验 度量 过 滤 假 阳 性 差异 序列 模式 。 实 
验 结果 证 明 SP-DSP 算法 能 够 去 除 掉 一 定数 量 的 假 阳 性 模式 并 尽 可 能 地 保留 真 差异 序列 模式 ， 从 而 促进 后 续 分 类 任 
务 正 确 率 的 提升 。 
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Mining discriminative sequential patterns based on standard permutation testing 


Wu Jun, Ouyang Aijia, Zhang Lin 
(School of Information Engineering, Zunyi normal university, Zunyi Guizhou 563000, China) 


Abstract: To filter out the false positive patterns returned from the discriminative sequential patterns mining methods, this 
paper proposed a standard permutation based method called SP-DSP. This method first mined frequent sequential patterns by 
the GSP algorithm, then the patterns whose Growth rate are less than the threshold were eliminated. Finally, the standard 
permutation method was used to compute the p-values of tested patterns. As a result, the number of false positive patterns can 
be controlled under the multiple hypothesis testing measures. The experiments showed that the SP-DSP algorithm can alleviate 
a lot of false positive patterns and retain as many true patterns as possible, which improves the accuracy of the downstream 
classification tasks. 
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0 引言 近年 来 ， 使 用 统计 显著 性 检验 方法 评估 数据 挖掘 结果 已 
n 经 得 到 了 广泛 研究 。 在 非 序 列 数据 的 差异 模式 挖掘 任务 中 ， 
序列 数据 指 的 是 数据 元 素 之 间 具 备 某 种 顺序 关系 的 数据 ， Webb 提出 了 两 种 技术 用 以 检验 模式 的 真 假 性 ， 分 别 是 : 留 
例如 网 页 浏览 序列 、 和 蛋白 质 序列 和 人 类 语言 都 是 常见 的 序列 出 方法 和 直接 计算 方法 岂 。Liu 等 人 总 结 了 关联 规则 挖掘 中 
数据 。 在 含有 类 型 标签 的 序列 数据 中 ， 某 些 序列 模式 在 不 同 的 几 种 多 重 假 设 检验 算法 ， 并 将 这 些 算 法 分 成 了 三 类 HM 了 4， 其 
类 别 中 出 现 的 频率 显著 不 同 ， 这 样 的 模式 被 称 为 差异 序列 模 中 基于 置换 检验 的 方法 是 最 有 效 的 。 随 后 ， 一 些 改进 的 置换 
式 吊 。 差 异 序列 模式 在 医学 等 许多 应 用 中 都 有 相当 重要 的 价 检验 算法 被 相继 提出 并 应 用 于 差异 模式 挖掘 0 14. 
[E 2-51, Komiyama 等 人 提出 了 两 个 方法 LAMP-EP 和 QT-LAMP-EP 
到 目前 为 止 ， 已 经 提出 了 一 些 有 效 的 差异 序列 模式 挖掘 分 别 控制 结果 的 FWER 度量 和 FDR 度量 03。 以 上 方法 在 非 
算法 [51 这些 方法 主要 探讨 了 如 何 快速 有 效 地 挖掘 差异 序列 序列 数据 的 差异 模式 挖掘 中 都 取得 了 非常 好 的 效果 。 
模式 ， 而 没有 关注 挖掘 到 的 模式 的 真 假 性 ， 即 这 些 算法 返 最 近 ， 为 了 验证 多 重 假设 检验 对 差异 序列 模式 挖掘 任务 
的 结果 中 会 存在 一 定数 量 的 假 阳性 差异 序列 模式 。 假 阳性 的 有 效 性 ，He 等 人 设计 了 一 个 基于 直接 计算 的 方法 DSPM- 
异 序列 模式 指 的 是 在 数据 集中 随机 出 现 的 并 不 能 够 反映 总 MTC 控制 假 阳 性 模式 的 数量 趾 。DSPM-MTC 根据 支持 度 服 
特征 的 差异 序列 模式 。 采 用 假 阳 性 差异 序列 模式 做 后 续 丰 从 超 几 何 分 布 的 特性 直接 计算 得 到 每 个 差异 序列 模式 相应 的 
可 能 会 得 到 错误 的 结果 。 可 以 采用 统计 显著 性 检验 对 挖掘 结 p-value。 鉴于 置换 检验 方法 相 较 于 直接 计算 方法 在 非 序列 数 
果 进 行 质 量 评 估 ， 从 而 过 滤 假 阳性 差异 序列 模式 。 据 任 务 中 更 为 有 效 04， 本 文 提 出 了 一 个 基于 标准 置换 检验 的 
在 统计 显著 性 检验 中 ， 一 个 结果 的 显著 性 是 由 它 的 P- 差异 序列 模式 挖掘 算法 ， 即 SP-DSP 算法 。 该 算法 首先 运用 
value AREH. p-value 值 越 小 则 说 明 该 结果 统计 显著 性 越 GSP 算法 挖掘 得 到 候选 差异 序列 模式 09,， 随 后 对 原始 数据 进 
强 。 当 仅 有 一 个 差异 序列 模式 被 检验 时 ， 如 果 它 的 p-value 行 标 准 置换 检验 并 得 到 相应 的 置换 检验 零 分 布 ， 最 后 由 该 零 
小 于 一 个 阔 值 a, 那么 称 该 差异 序列 模式 在 统计 显著 水 平 为 w 。 分 布 计算 得 到 候选 差异 序列 模式 的 p-value, 并 运用 FWER 和 
的 条 件 下 是 统计 显著 的 。 在 许多 实际 情况 中 ， 多 个 差异 序列 FDR 度量 将 结果 中 的 假 阳 性 差异 序列 模式 数量 控制 在 统计 
模式 需要 被 同时 检验 ， 这 样 的 检验 称 为 多 重 假设 检验 。 显著 水 平 w 下 。 本 文 的 主要 贡献 如 下 : 
FWER(family wise error rate)9] 和 FDR(false discovery rate)!" a) 提出 了 一 个 基于 标准 置换 检验 的 差异 序列 模式 挖 扫 
是 多 重 假设 检验 中 两 个 常用 的 控制 假 阳 性 结果 数量 的 度量 。 算法 SP-DSP， 该 算法 能 够 将 挖掘 结果 中 假 阳 性 差异 序列 模 
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式 数量 控制 在 统计 显著 水 平 w 下 。 

b) 通过 真实 数据 集 上 的 实验 结果 证 明了 SP-DSP 算法 和 
够 过 滤 一 定数 量 的 假 阳 性 模式 ， 并 且 比 DSPM-MTC 算法 外 
够 保留 更 多 的 真 差异 序列 模式 。 

c) 证 明了 运用 多 重 假设 检验 能 够 提升 差异 序列 模式 挖 
掘 算法 结果 的 可 信 度 。 


1 ”基本 定义 


1.1 频繁 序列 模式 
一 条 序列 s=<ala2, .4 疡 是 由 字母 表 I (iios... ii RS 
字母 构成 的 一 个 有 序 线性 表 ， 其 中 weETr。 对 于 序列 
SI=<01002 .0 记 和 序列 92=<aa2 ,am>， 如 果 每 一 个 ahes 
也 在 序列 si 中 且 符 合 si 的 元 素 顺 序 , 则 称 s2 是 si 的 子 序列 ， 
表示 为 9 Csl。 例 如 ， 给 定 一 个 序列 s=<i1,i3,is,i6,ig>， 
和 <is,is> 均 是 s 的 子 序 列 ，<is,i3> 不 是 s 的 子 序列 ， 因 为 其 不 
满足 s 的 元 素 顺序 。 
给 定 一 个 序列 数据 集合 D={ti,t2,.…,tip|}， 序 列 s 在 D 中 
支持 度 定义 为 D 中 包含 s 的 序列 总 数 ， 即 sup(s,D) 
-(üteDAsct)|. WR RFI s 的 支持 度 超 过 了 用 户 定义 的 
BJE min_sup， 则 该 序列 被 称 为 频繁 序列 模式 。 
1.2 ”差异 序列 模式 挖掘 
对 于 含有 类 型 标签 的 序列 数据 而 言 ， 一 些 序列 在 不 同 的 
类 型 标签 中 呈现 显著 频率 差异 ， 这 样 的 序列 被 称 为 差异 序列 
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模式 。 其 中 ， 序 列 在 不 同类 别 中 的 差异 性 可 以 由 许多 差异 性 
度量 来 衡量 473。 为 了 便于 讨论 ， 采 用 仅 使 用 包含 两 种 类 型 标 
签 的 序列 数据 , 并 分 别 用 D+ 和 D. 表 示 两 个 序列 数据 集合 。 
出 的 方法 可 以 轻易 拓展 到 多 个 类 型 标签 的 序列 数据 。 
非 统 计 检 验 的 差异 序列 模式 挖掘 算法 通常 可 以 分 为 两 个 
步骤 。 首 先 运 用 频繁 序列 模式 挖掘 算法 挖掘 一 定数 量 的 候选 
差异 序列 模式 ; 随后 计算 这 些 模式 的 差异 性 度量 值 ， 如 果 符 
合 给 定 的 阔 值 约束 ， 则 被 认定 为 差异 序列 模式 。 
1.3 统计 显著 性 检验 

统计 显著 性 检验 包含 两 种 假设 : 零 假设 和 备 择 假设 。 差 
异 序列 模式 挖掘 任务 的 零 假 设 是 差异 序列 模式 在 D+ 和 DJ 
据 集中 分 布 相 同 。 在 该 任务 中 ， 每 一 个 差异 序列 模式 的 统计 
显著 性 由 p-value 度量 。 p-value 的 定义 是 :假设 差异 序列 模式 
s 在 D+ 和 DD- 里 具有 相同 分 布 的 前 提 下 , 获得 一 个 与 s 同样 极 
端 或 者 更 加 极端 的 差异 序列 模式 的 概率 。 一 个 差异 序列 模式 
的 p-value 越 小 ， 则 他 在 不 同 的 类 别 里 具有 相同 分 布 的 可 能 
性 就 越 小 。 独 立 检验 某 个 差异 序列 模式 时 , 若 它 的 p-value 小 
TE BIB o, 则 该 差异 序列 模式 被 称 作 在 统计 显著 水 平 w 下 
是 统计 显著 的 差异 序列 模式 。 

差异 序列 模式 挖掘 算法 通常 会 返回 大 量 差 异 序列 模式 ， 
运用 独立 检验 方法 会 导致 假 阳 性 结果 的 增加 ， 因 此 这 种 情景 
更 适用 于 多 重 假设 检验 。 在 多 重 假设 检验 中 ，FJFER 和 FDR 
是 两 个 常用 的 统计 度量 。 其 中 ，FWER 的 定义 是 发 现 一 个 假 
阳性 差异 序列 模式 的 概率 ; FDR 的 定义 是 假 阳 性 差异 序列 模 
式 比例 的 期 望 值 。 FWER 可 以 用 Bonferroni 校正 控制 外 , FDR 
可 以 用 BH 方法 控制 91。 


2 SP-DSP 算法 


2.1 差异 性 度量 
SP-DSP 算法 采用 Growth rate 作为 序列 模式 的 差异 性 度 
量 。 给 定 一 个 频繁 序列 模式 s， 其 Growth rate 计算 公式 为 
sup(s, D,) 
sups.D.) 0) 
如 果 一 个 序列 模式 的 Grow(s,D) 大 于 等 于 用 户 定 义 的 差 
异 闵 值 A， 则 该 模式 被 称 为 候选 差异 序列 模式 。 
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2.2 置换 检验 

SP-DSP 使 用 的 标准 置换 检验 含有 五 个 步骤 : 

a) 根据 具体 的 任务 建立 一 个 零 假 设 , 再 选择 一 个 在 零 假 
设 和 备 择 假设 下 具有 不 同 值 的 统计 度量 , 并 挖掘 D; 数 据 集 中 
的 候选 差异 序列 模式 R。 SP-DSP 算法 的 零 假设 是 差异 序列 模 
RE D+ 和 D- 中 具有 不 同 的 分 布 ， 选 用 的 统计 度量 为 Growth 


rateo 


b) 随机 交换 D+ 和 DD- 中 的 序列 数据 ， 得 到 置换 序列 数据 
R: D+ 和 D'.-。 置 换 过 程 如 图 1 所 示 ， 设 DD 包含 8 条 序列 数 
据 {f1,t2,.…,ts}， 其 中 前 5 条 属于 D1 数据 集 ， 后 3 条 属于 DX 
FE. 随机 生成 一 个 置换 序列 : 7,5,1,4,2,3,8,6, 根据 该 序列 ， 
将 n 的 标签 分 配给 t. o 的 标签 分 配给 ts， 依 此 类 推 得 到 置 
换 序列 数据 集合 。 


b hy, ila, io, fi to t h,i 


b jo,is,h,ie ts bis, iz, ho 
D+ t h,h,is, io, fto, h1 D+ t hh, iz, la io, 1 2 
hohe ta hrs 
b jo,is,h, 1,i2 t j,is,h,is 
te i,h t ,ks,/e,ho, to i1 
D- t do D- te fih? 
t iu te h,i 
原始 序列 数据 集合 置换 序列 数据 集合 


图 1 原始 序列 数据 集合 根据 置换 序列 生成 的 置换 序列 数据 集合 


Fig.1 The permuted sequential data set obtained from the original 


sequential data set with the permutation sequence 
c) 挖掘 D+ 序列 数据 集中 的 差异 序列 模式 ， 
统计 度量 值 放 入 集合 G 中 。 
d) 重复 第 二 步 和 第 三 步 若 干 次 后 ， 用 集合 G 中 统计 度 
量 值 构建 该 置换 检验 的 零 分 布 。 通 常 执 行 的 置换 次 数 是 1000 次 。 
e) 将 D: 中 的 候选 差异 序列 模式 的 统计 度量 值 放置 到 上 
述 零 分 布 中 计算 得 到 置换 检验 p-value， 其 计算 公式 为 
liga |8; 8, ^8, G}| 
p(G,s) ici Q) 
HB. g 指 的 是 差异 序列 模式 s 在 原始 数据 集合 上 的 统计 度 
量 值 。 
23 多 重 假设 检验 
置换 检验 计算 得 到 候选 差异 序列 模式 的 p-value 后 ， 
SP-DSP 算法 用 Bonferroni 校正 和 BH 方法 将 挖掘 结果 RR 的 
FWER 和 FDR 控制 在 统计 显著 水 平 a 下 。FWER 的 计算 公式 
如 下 : 


将 相应 的 


FWER(A,a) = (s|p(G, SiR ER (3) 
计算 FDR 时 ， 需 要 先 将 R 中 差异 序列 模式 的 p-value 1 

从 小 到 大 排序 得 到 R={s"1,s'2,.…, sR ， 随 后 可 计算 得 到 : 
FDR(R,a) —- (5'; Ip(G.s) < sem] (4) 


2.4 SP-DSP 算法 

SP-DSP 算法 伪 代 码 见 算法 1， 其 详细 的 解释 如 下 : 

a) 在 DD: 序 列 数 据 集 中 运用 gsp(D+, min_sup) 算 法 逐 层 挖 
Ji D1 数据 集中 支持 度 不 小 于 min sup 的 频繁 序列 模式 , 并 将 
其 放 入 到 集合 Freg 中 (第 a 行 ); 计算 集合 Freg 中 每 一 个 频 
繁 序列 模式 的 Growth rate 值 , 将 超过 阔 值 8 的 频繁 序列 模式 
放 入 集合 RR 中 ，R 中 的 差异 序列 模式 既是 候选 差异 序列 模式 
(第 b~e 行 )。 

b) 对 于 每 一 次 置换 j， 首 先 运 用 permutate(D) 方 法 进行 
类 型 标签 的 置换 ， 得 到 置换 数据 集合 DM D'; 随后 ， 使 用 
gsp(D'« , min_sup) 算 法 挖掘 D': 数 据 集 中 的 频繁 序列 模式 ， 并 
将 其 放 入 到 集合 Freq per; P; 接着 , 使 用 


com sta(Freq per;, 
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方法 计算 Freq per; 中 每 一 个 频繁 序列 模式 的 Growth rate Linuxl 5U31, Question'?], WebKBP?lf] ReutersP!, HHP, 

值 ， 并 将 超过 p 的 Growth rate 值 放 入 到 集合 G; 中; 最 后 将 Linuxl 5. WebKB 和 Reuters 是 多 类 别 数据 集 ， 实 验 中 只 保 

G 中 的 Growth rate 值 并 入 集合 G 中 (第 f-k 行 )。 最终，G 中 留 了 这 三 个 数据 集中 序列 数量 最 多 的 两 个 类 别 。 有 具体 的 数据 

所 有 的 Growth rate 值 构 成 该 置换 检验 的 零 分 布 。 集 信 息 如 表 1 所 示 。 其 中 Imin, Imas 和 1avg 分 别 表示 序列 最 短 
c) 将 集合 R 中 每 个 候选 差异 序列 模式 的 差异 性 度量 值 长 度 ， 序 列 最 长 长 度 和 序列 平均 长 度 。 

放置 到 零 分 中 计算 出 p-value 值 (第 l~n 47); 随后 ， 根 据 每 个 表 1 实验 数据 集 

模式 的 p-value 值 过 滤 得 到 非 元 余 的 候选 差异 序列 模式 集合 Tab. 1 The experimental data sets 

R(E o íT); 最 后 ， 运 用 Bonferroni 校正 将 R' 的 FWER 控制 数据 集 加 ID] E lag 

在 统计 显著 水 平 c 下 ， 并 将 统计 显著 的 差异 序列 模式 保存 到 Linuxl 5 426 1033 1 856 297 

集合 R'rwen 中 ; 类 似 地 , 运用 BH 方法 将 R' 的 FDR 控制 在 统 Question 3612 1731 4 29 10.2 

计 显 著 水 平 w 下 ， 并 将 统计 显著 的 差异 序列 模式 保存 到 集合 WebKB 3151 2765 3 12 6.0 

及 fpR 中 (第 p~q 行 )。 Reuters 15926 4436 4 815 87 


算法 1 SP-DSP(D, min sup, a, D, num per) 


输入 : 序列 数据 集合 D={D,,D-}， 最 小 支持 度 阔 值 min_sup; 统计 显 


著 水 平 a; 差异 性 度量 闵 值 6; 置换 次 数 num_per 
输出 : 统计 显著 的 差异 序列 模式 集合 R'Fwer 和 R ' ron 


a) 
b) 
c) 
d) 
e) 
f) 
g) 
h) 
i) 
j) 
k) 
1) 
m) 
n) 
o) 
p) 
q) 


Freq < gsp (D+, min sup) 
for each s in Freq 
if Grow(s,D) > p 
R e RU(s) 
end for 
for j = 0 to num per do 
D',, D'. € permutate(D) 
Freq perj € gsp(D'. , min sup) 
G; € com sta(Freq per; , 6) 
G - GUG; 
end for 
for each s in R do 
s.p vaLue «< p(G, s) 
end for 
R' e redundancy filter(R) 
R'ru € FWER(R', a) 
R'rog € FDR(R', a) 
算法 2 描述 了 去 元 余 方 法 redundancy _filter(R) 的 详细 


SE 


Ji: 对 于 每 一 个 候选 差异 序列 模式 ”, 先 找到 其 相应 的 子 序列 


模式 


集合 Sub; 然后 找到 其 中 最 小 的 p-value 值 min p, n 


r 的 p-value 值 小 于 min pP， 则 将 其 放 入 非 元 余 的 候选 差异 序 


列 模 


式 集合 R' 中 ; 最 后 将 R' 返 回 进 行 后 续 评 估 。 
算法 2 redundancy filter(R) 


输入 : WA p-value 值 的 候选 差异 序列 模式 集合 R 
输出 : 非 元 余 的 候选 差异 序列 模式 集合 R' 


a) 
b) 
c) 
d) 
e) 
f) 
g) 


集 上 


多 重 
算法 


算法 


有 的 


法 外 和 DSPM-MTC 7., HP, DSPM-MTC 算法 是 基于 


for each r in R do 
Sub + getsubpatterns(r) 
min p < min(Sub) 
if r.p value < min p 
R' e R'U{r} 
end for 
return R' 
实验 ”为 了 检验 SP-DSP 算法 的 性 能 ， 本 文 在 真实 数据 
实施 了 大 量 对 比 实 验 。 对比 算法 是 IMP 算法 中、CGM 算 


假设 检验 的 差异 序列 模式 挖掘 算法 ，IMP 算法 和 CGM 
是 基于 差异 性 度量 的 差异 序列 模式 挖掘 算法 。 同 时 , IMP 
和 CGM 算法 均 使 用 了 文献 [1] 中 使 用 的 去 匈 余 方法 。 所 
相关 实验 均 运 行 在 一 台 配 置 为 2.40Ghz CPU 和 12GB 内 


存 的 
2.5 


EIRE o 
实验 数据 
该 实验 选用 了 4 个 不 同 大 小 的 序列 数据 集 ， 分 别 是 : 


2.6 实验 结果 


实验 首先 对 比 了 SP-DSPror, DSPM-MTCrpor, IMP 和 


CGM 在 相同 的 min sup, a F 


15 参数 下 不 同 


数据 集 返 回 的 差 


异 序列 模式 的 数量 。 实 验 结 果 如 图 2 所 示 ， 从 中 
HE: SP-DSPrpa 和 DSPM-MTCrpn 算法 返 


Hu 


可 以 明显 看 


的 结果 数量 小 于 


IMP 和 CGM 算法 ， 其 原因 是 差异 性 度量 约束 只 关注 了 差异 
序列 模式 本 身 ， 而 多 重 假 设 检 验 是 对 算法 整个 返回 结果 进行 


EM E Y ME 
评估 ， 所 以 基于 多 重 假设 检验 的 算法 对 结果 质量 的 约束 更 为 
N 
严格 。 
Linux Question 
10E+4 10E+4 
10E+3 10E+3 
10E+2 10E+2 
10E+1 10E+1 | | l | 
10E+0 10E-0- 
IMP CGM MTCron SPron IMP CGM MTCFon SPron 
Webkb Reuters 
10E+4 10E-4 
10r43 10E+3 
10E+2 10E*2 | 
10E+1 | 10E+1 
10E+0 10E-0 
IMP CGM MTCrog SPror MTCror E 


图 2 ”四 种 方法 在 各 个 数据 用 


E ER [E] 


的 差 


序列 模式 数量 


Fig.2 The number of discriminative sequential patterns returned from 


different algorithms on each data set 


SP 和 DSPM-MTC 算法 在 相同 


随后 ， 实 验 对 比 了 SP-D 
参数 下 使 用 FWER 和 FDR £5 
实验 结果 如 表 2 所 示 。 从 实验 结 


者 FWER 约束 下 ，SP-DSP 算法 返回 的 模式 


束 返 回 的 差异 序列 模式 的 数量 ， 
吉 果 中 可 以 看 出 在 相同 FDR 或 
数量 大 于 DSPM- 


MTC 算法 , 这 说 明基 于 置换 检验 的 方法 比 基 于 直接 计算 的 方 


法 能 报告 更 多 的 结果 数量 。 


同时 也 能 看 出 ， 同 


一 种 方法 在 


FWER 约束 下 报告 的 差异 序列 模式 数量 小 于 在 FDR 约束 下 


报告 的 数量 ， 这 证 明了 FWER 度量 比 FDR 度量 


严格 。 


的 约束 更 为 


表 2 SP-DSP 和 DSPM-MTC 算法 在 FWER 或 FDR 约束 下 各 个 数 


据 集 返 


n 


的 差异 序列 模式 的 数量 


Tab.2 The number of discriminative sequential patterns returned from the 
SP-DSP and DSPM-MTC methods under the FWER or FDR measure 


Linuxl 5 Question — Webkb Reuters 
SP-DSPrpn 214 67 96 336 
SP-DSPFwER 191 57 85 292 
DSPM-MTCrpn 186 54 84 278 
DSPM-MTCrwzn 157 49 72 240 


录用 定稿 Xx 军 ， 


以 上 实验 结果 表明 : 相 较 于 非 多 重 假 设 检 验方 法 IMP 和 
CGM, SP-DSP 能 够 过 滤 掉 大 量 的 模式 ， 相 较 于 多 重 假设 检 
验方 法 DSPM-MTC, SP-DSP 方法 能 保留 更 多 的 差异 序列 模式 。 
于 真实 数据 集中 没有 差异 序列 模式 的 Groud truth 信 
息 ， 无 法 根据 上 述 结果 直接 说 明 SP-DSP 方法 相 较 于 其 他 方 
法 找到 的 差异 序列 模式 准确 性 更 高 。 为 了 证 明 挖 掘 算法 的 ; 
确 性 ， 随 后 的 实验 将 上 述 挖掘 到 的 模式 作为 特征 用 于 分 类 器 
进行 分 类 预测 任务 23。 分 类 任务 之 所 以 能 够 证 明 挖掘 到 的 模 
式 的 准确 性 是 因为 真 差 异 序列 模式 反映 了 不 同类 别 数据 集 的 
分 布 差异 性 ， 从 而 对 应 了 相应 的 类 型 标签 。 具 体 做 法 是 ， 根 
据 挖掘 到 的 差异 序列 模式 的 数量 ， 为 数据 集中 每 一 条 序列 构 
造 一 个 与 该 数量 大 小 相同 的 向 量 作为 特征 表示 ， 其 中 ， 如 果 
某 一 条 序列 包含 某 一 个 模式 , 则 该 序列 在 该 特征 上 的 值 为 1， 
有 反之， 该 序列 在 该 特征 上 的 值 为 0。 

考虑 到 不 同 分 类 方法 的 影响 ， 实 验 使 用 了 三 种 不 同 机 制 
的 分 类 方法 : 朴素 贝 叶 斯 (表示 为 NB)， 支 持 向 量 机 (表示 为 
SVM) 和 全 连接 神经 网 络 (表示 为 MLP)。 为 了 避免 随机 偶然 性 
每 个 分 类 方法 都 使 用 了 五 折 交 又 验证 ， 并 取 十 次 预测 结果 的 平 
均值 作为 最 终 的 分 类 正确 率 。 具 体 的 实验 结果 如 表 3-5 所 示 。 

表 3 NB 分 类 方法 在 各 个 数据 集 上 的 正确 率 


Tab.3 The classification accuracy on each data set returned from NB method 


r 


等 : 基于 标准 置换 检验 的 差异 序列 模式 挖掘 算法 


Linuxl 5 Question WebKB Reuters 
IMP 0.692 0.835 0.572 0.802 
CGM 0.754 0.842 0.616 0.704 
DSPM-MTCrpn 0.866 0.865 0.674 0.845 
SP-DSPFpR 0.892 0.885 0.687 0.870 


表 4 SVM 分 类 方法 在 各 个 数据 集 上 的 正确 率 
Tab.4 The classification accuracy on each data set returned from SVM method 


Linuxl 5 Question WebKB Reuters 

IMP 0.784 0.846 0.674 0.905 
CGM 0.834 0.852 0.605 0.724 
DSPM-MTCrpn 0.862 0.872 0.722 0.926 
SP-DSPFpR 0.896 0.887 0.738 0.942 


表 5  MLP 分 类 方法 在 各 个 数据 集 上 的 正确 率 
Tab.5 The classification accuracy on each data set returned from MLP method 


Linuxl 5 Question — WebKB Reuters 
IMP 0.792 0.862 0.685 0.902 
CGM 0.838 0.876 0.624 0.746 
DSPM-MTCrpn 0.860 0.895 0.732 0.925 
SP-DSPrpn 0.892 0.913 0.751 0.944 
从 三 种 分 类 方法 实验 结果 中 可 以 得 知 : 一 方面 ， SP- 


DSPrpa 和 DSPM-MTCrpn 算法 结果 构成 特征 的 分 类 正确 率 
明显 高 于 由 IMG 和 GCM 算法 结果 构成 特征 的 分 类 正确 率 ， 
这 说 明了 多 重 假设 检验 的 确 过 滤 掉 了 许多 假 阳性 差异 序列 模 
式 。 以 Question 数据 集 为 例 ，IMG 和 GCM 算法 挖掘 结果 存 
在 <where, the> 模式 ， 而 SP-DSPrpa 和 DSPM-MTCFpR 算法 
挖掘 结果 中 只 有 <where> 模 式 Question 数据 集中 大 量 序列 都 
存在 定 冠 词 the， 且 定 冠 词 the 没有 实 义 ， 因 此 用 其 作为 特征 
很 可 能 会 导致 错误 分 类 。 
另 一 方面 ，SP-DSPrpR 算法 结果 的 正确 率 高 于 DSPM- 
MTCFpR 算法 结果 的 正确 率 ， 这 体现 了 置换 检验 保留 的 更 多 
的 差异 序列 模式 很 可 能 是 真 差异 序列 模式 。 以 Question 数据 
集 为 例 , SP-DSPrpR 算法 结果 中 存在 <what> 和 <what, in> 模 式 
而 DSPM-MTCror 算法 中 只 存在 <what> 模 式 ， 观 察 最 终 的 错 
误 分 类 结果 发 现 ，DSPM-MTCFnpR 将 正 例 类 别 中 6 条 包含 
what, in> 模 式 的 序列 分 到 负 例 类 别 中 , 而 SP-DSPror 能 够 全 
了 分 对 ， 这 说 明 <what, in> 模 式 应 该 是 真 差异 序列 模式 。 
此 外 , GCM 在 Webkb 数据 集 和 Reuters 数据 集中 低 准 确 
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率 现象 说 明 假 阳 性 模式 对 后 续 任 务 的 严重 误导 性 。 同 时,IMG 
和 GCM 算法 对 不 同 的 分 类 方法 较为 敏感 ,因为 IMG 和 GCM 


算法 会 得 到 更 多 的 干扰 特征 。 
3 ”结束 语 


为 了 提升 差异 序列 模式 挖掘 任务 的 准确 率 ， 提 出 了 一 个 
车 于 标准 置换 检验 的 算法 SP-DSP。 真 实数 据 集 上 的 实验 结 
果 证 明了 运用 多 重 假设 检验 能 够 提升 差异 序列 模式 挖掘 算法 
结果 的 可 信和 度 。 同 时 ， 相 较 于 基于 直接 计算 的 多 重 假设 检验 
方法 DSPM-MTC, SP-DSP 算法 能 够 尽 可 能 多 的 保留 真 差异 
序列 模式 。 由 于 标准 置换 检验 的 随机 性 ，SP-DSP 算法 返回 的 
统计 显著 的 差异 序列 模式 数量 会 有 波动 ， 本 实验 采用 运行 十 
次 算法 得 到 结果 的 平均 值 作 为 最 终结 果 ， 后 续 工作 将 研究 边 
界 模式 的 舍 取 问题 
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